iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0

FastQC操作,與結果判讀

FastQC簡介

目前的高通量測序技術可以在單次運行中產生數億個序列。在分析此序列以得出生物學結論之前,應該執行一些簡單的質量控制檢查,以獲得較好的原始數據,並且確保數據中沒有任何問題或偏差,本文就來介紹一款簡單常用的質量檢測工具fastQC

  • 檔案目錄
    https://ithelp.ithome.com.tw/upload/images/20231004/20133400TiyM0KUQT5.png

實際操作

  • 本機linux

可以直接在teminal 操作。在操作前呢,我們需要FastQc安裝

FastQC官網

選擇下載編譯好的程序,上傳軟件安裝包到Linux服務器,使用unzip命令來進行解壓縮。

然後進入解壓縮文件,fastqc文件即是主程序,沒有辦法直接運行,需    chmod u+x file 命令修改為可執行權限。

如果覺得官網下載安裝太麻煩,推薦conda安裝最方便:

conda install fastqc

  • 最簡單的使用方法:
fastqc seqfile1 seqfile2 .. seqfileN

# 一次大量
fastqc *.fastq.gz 
  • 國網上:不用載FastQC

    • fastqc.sh
    #!/usr/bin/sh
    #SBATCH -A MST109178        # Account name/project number
    #SBATCH -J Job_name         # Job name
    #SBATCH -p ngs48G           # Partition Name 等同PBS裡面的 -q Queue name
    #SBATCH -c 14               # 使用的數 請參考Queue資源設定 
    #SBATCH --mem=46g           # 使用的記憶體量 請參考Queue資源設定
    #SBATCH -o out.log          # Path to the standard output file 
    #SBATCH -e err.log          # Path to the standard error ouput file
    #SBATCH --mail-user=XXXX@narlabs.org.tw    # email
    #SBATCH --mail-type=BEGIN,END              # 指定送出email時機 可為NONE, BEGIN, END, FAIL, REQUEUE, ALL
    
    ##這邊寫入你要執行的指令
    #FastQC位置
    FastQC_PATH=/opt/ohpc/Taiwania3/pkg/biology/FastQC/FastQC_v0.11.9/fastqc
    
    output_path="/staging/biology/winnie/debugs/try"
    
    # 一次一個
    ${FastQC_PATH} -f fastq IHW01003_S23_L001_R1_001.fastq
    # * 一次多個
    ${FastQC_PATH} -f fastq ${output_path}/*.fastq
    

PS. 如果直接跑(相對路徑),下 -f fastq seqFile,那麼要注意跑的.sh以及目標檔案位置,要先cd 到當時的資料夾底下再執行.sh, 不然會出現以下錯誤訊息:


Skipping 'IHW01003_S23_L001_R1_001.fastq' which didn't exist, or couldn't be read

因此會建議用絕對路徑會比較好!

詳細指令解釋

  • 幫助

fastqc –help

# 命令行使用
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
  • 參數說明
-h --help
-v --version
-o -output dir
-casave 文件來自原始 casave 輸出
-nano 文件來自 nanopore 序列,採用 fast5 格式
-extract 如果設置,則壓縮輸出
-j --java java文件完整路徑
-nogroup 禁止讀取 2500bp 以上的鹼基組
-f 跳過正常文件格式檢測,強制指定使用 bam | sam | bam_mapped | sam_mapped | fastq
-t --threads多線程,多線程250 M
-c --contamin 指定包含的非默認文件,遺留一系列的序列(哈希)
-a -adapters 指定包含列表的非默認文件,包含一組已經命名的Adapter(哈希)
-l 一個非默認文件,限制將指定確認warning / Fairure,或者從結果中刪除一些模塊,cofiguration --> limits.txt
-k -kmers 指定要在Kmer中查找的長度,必須在2-10之間,默認為7
-q -quiet 安靜模式,在標準輸出上禁止所有的消息,只報錯
-d --dir 一個目錄用於寫入臨時文件當生成圖像時,默認系統臨時目錄

上一篇
Day23. GATK Best Practices
下一篇
Day25. FastQC--2
系列文
生資的路且重且遠,我要被鴨垮了Q30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言